标贝科技李秀林博士:用AI的眼光做数据,用数据的思维做AI
当前,训练一个领先的大模型,需要数百万甚至数千万条标注数据。GPT-4用了13万亿个token,Qwen2.5-Max用了20万亿token。OpenAI为标注这些数据,砸下数亿美元,调动数千人力。最强的大模型,一定有质量最高的训练语料“打辅助”。
当前,训练一个领先的大模型,需要数百万甚至数千万条标注数据。GPT-4用了13万亿个token,Qwen2.5-Max用了20万亿token。OpenAI为标注这些数据,砸下数亿美元,调动数千人力。最强的大模型,一定有质量最高的训练语料“打辅助”。
当前,训练一个领先的大模型,需要数百万甚至数千万条标注数据。GPT-4用了13万亿个token,Qwen2.5-Max用了20万亿token。OpenAI为标注这些数据,砸下数亿美元,调动数千人力。最强的大模型,一定有质量最高的训练语料“打辅助”。